Руководство по программированию CUDA: Переход к вычислениям, ориентированным на пропускную способность

Вычислительная техника пережила фундаментальный сдвиг от оптимизированной по времени задержки проектирования процессора к ориентированной на пропускную способность архитектуре графических процессоров. В то время как процессор подобен скоростному мотоциклу доставки (быстрый для одного пакета), графический процессор — это огромный грузовой корабль: он движется медленнее на один элемент, но одновременно перевозит 50 000 контейнеров.

1. Задержка против пропускной способности

Процессоры разрабатываются с целью минимизации «времени выполнения» для одной последовательности инструкций с помощью сложной предсказания ветвления. Напротив, графические процессоры (GPU) разработаны для максимизации «работы в секунду», выполняя тысячи потоков параллельно, жертвуя скоростью одного потока ради огромной общей пропускной способности.

2. Распределение транзисторов

Графический процессор обеспечивает гораздо более высокую пропускную способность команд и полосу пропускания памяти, чем центральный процессор при аналогичном ценовом и энергетическом уровне. ГПУ специализируются на высокоуровневых параллельных вычислениях и используют больше транзисторов на блоки обработки данных (АЛЮ), в то время как ЦПУ уделяют больше транзисторов кэшированию данных и управлению потоками.

3. Эволюция CUDA

Архитектура унифицированного вычислительного устройства (CUDA) была представлена компанией NVIDIA в 2006 году. Это платформа и модель параллельных вычислений, которая позволяет значительно повысить производительность за счёт использования мощности графического процессора независимо от графических интерфейсов приложений.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which component consumes the majority of silicon real estate in a traditional CPU?

Arithmetic Logic Units (ALUs)

Control logic and Data Caching

Floating Point Units

Memory Controllers

QUESTION 2

What was the original purpose of the GPU before CUDA?

General purpose scientific computing

Operating system kernel management

Fixed-function hardware for 3D rendering

High-frequency trading

QUESTION 3

In the cargo ship analogy, what represents the 'Throughput'?

The speed at which the ship moves across the ocean.

The total volume of containers delivered at once.

The size of the ship's engine.

The fuel efficiency per container.

QUESTION 4

What is the primary trade-off made by GPUs to achieve high aggregate throughput?

Higher power consumption per unit.

Lower single-thread performance.

Reduced memory bandwidth.

Simplified mathematical precision.

QUESTION 5

Which NVIDIA software component is required to run CUDA applications?

DirectX 12

NVIDIA Driver and CUDA Toolkit

OpenGL Wrapper

Windows GDI+